package com.dmcb.trade.business.crawlers.article;

import com.dmcb.common.business.utils.DateUtil;
import com.dmcb.trade.business.constants.CrawlConstant;
import com.dmcb.trade.business.entities.Article;
import org.apache.commons.lang3.StringUtils;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.springframework.stereotype.Service;

/**
 * 洛阳新闻文章解析
 * Created by 黑米 on 2017/5/10.
 */
@Service
public class LuoYangParser  extends BaseParser {

    /**
     * 网站URL网址
     *
     * @return 链接
     */
    @Override
    protected String url() {
        return CrawlConstant.LUOYANGXINWEN_URL;
    }

    /**
     * 获取标题选择器
     *
     * @return 标题选择器
     */
    @Override
    protected String titleSelect() {
        return "h1,td.h1";
    }

    /**
     * 获取日期选择器
     *
     * @return 发布日期选择器
     */
    @Override
    protected String dateSelect() {
        return "body>table";
    }

    /**
     * 获取正文内容选择器
     *
     * @return 正文内容选择器
     */
    @Override
    protected String bodySelect() {
        return "td#textbody";
    }

    /**
     * 获取封面选择器
     *
     * @return 封面选择器
     */
    @Override
    protected String coverSelect() {
        return "td#textbody>div>center>span img[src]";
    }

    /**
     * 获取作者选择器
     *
     * @return 作者选择器
     */
    @Override
    protected String authorNameSelect() {
        return "";
    }

    @Override
    protected void setPostDate(Document doc, Article article) {
        Elements elements = doc.select(dateSelect());
        if(elements==null ||elements.size() <=3){
            return;
        }
        String time = elements.get(3).select("tBody>tr>td>table>tbody>tr").get(2).select("td").text();
        time = StringUtils.isBlank(time) ? elements.select("td.STYLE6").get(12).text() : time;
        if(StringUtils.isBlank(time)){
           return;
        }
        article.setPostTime(DateUtil.parseDate(time));
    }

    @Override
    protected String platform() {
        return "洛阳新闻";
    }
}
